導讀:網頁抓取優先策略也稱為“頁面選擇問題”(page Selection),通常是盡可能地首先抓取重要性的網頁,這樣保證在有限的資源內盡可能地照顧到那些重要性高的網頁。那么哪些網頁才
發表日期:2019-12-23
文章編輯:興田科技
瀏覽次數:9548
標簽:
網頁抓取優先策略也稱為“頁面選擇問題”(page Selection),通常是盡可能地首先抓取重要性的網頁,這樣保證在有限的資源內盡可能地照顧到那些重要性高的網頁。那么哪些網頁才是重要性高的呢?如何量化重要性呢?
重要性度量由鏈接歡迎度、鏈接重要度和平均鏈接深度這個方面決定。
定義鏈接歡迎度為IB(p),它主要由反向鏈接(Backinks)的數目和質量決定。首先考察數目,直觀地講,一個網頁有越多的鏈接指向它(反向鏈接數多),那么表示其他網頁對其的認可。同時這個網頁被網民訪問的機會就大,推測出其重要性也就越高;其次考察質量,如果被越多的重要性高的網指向,那么其重要性也就越高。如果不考慮質量,就會出現局部最優,而不是全局最優的問題。最典型的就是作弊網頁,人為地在一些網頁中設置了大量反策鏈接指向其自身的網頁,以提高該網頁的重要性。如果不考慮鏈接質量,就會被這些作弊者所利用。
定義鏈接重要度為IL(p),它是一個關于URL字符串的函數,僅僅考察字符串本身。鏈接重要度主要通過一些模式,比如認為包含“.COM”或者“HOME”的URL重要度高,以及具有較少斜杠(Slash)的URL重要度高等。
定義平均鏈接深度為ID(p),此為筆者所創。ID(p)表示在一個種子站點集合中,每個種子站點如果存在一條鏈路(寬度優先遍歷規則)到達該網頁,那么平均鏈接深度就是這個網頁的又一個重要性指標。因為距離種子站點越近,說明被訪問的機會越多,離種子站點越遠,重要性越低。事實上,按照寬度優先的遍歷規則即可滿足這種重要性高的網頁被優先抓取的需要。
最后,定義網頁重要性的度量為I(p),它由以上兩個量化值線性決定,即:
I(p)=a*IB(p)+β*IL(p)
平均鏈接深度同寬度優先的遍歷規則保證,因此不作為重要性評價的指標。在抓取能力有限的情況下,如果能夠把重要性高的網頁盡可能地抓完,是合理科學的,最終被用戶查詢到的網頁也往往是那些重要性高的網頁。
盡管這樣看來已經足夠完美,事實上,還是忽視了一個重要的要素--時間。時間導致萬維網動態變化的一面。如何抓取那些新增的網頁呢?如何重訪那些被修改了的網頁呢?如何發現那些被刪除了的網頁呢?為了保持和萬維網網頁的同步變化,就必須有網頁重訪策略。通過該策略可以識別增加、修改及刪除網頁這3種網頁變化的情況。
上一篇:
網站運營過程中的四個鏈接上一篇:
301轉向代碼合集更多新聞
2023
2023
盡管您可以嘗試自己進行中山網站優化,但考慮到該領域的復雜性和不斷變化的搜索引擎算法,聘請專業的中山網站優化服務提供商可能更為明智。他們將根據您的業務需求和目標提供個性化的優化策略,并確保您的網站在搜索引擎中獲得良好的排名。
View details
2023
作為一個企業,擁有一個現代化、專業化的網站對于提升業務和品牌形象至關重要。。然而,許多企業在建設網站...
View details
2023
蘭州網站建設是一個實現在這個數字化時代品牌線上突破的關鍵步驟。通過一個具有吸引力和實用性的網站,您可以展示您的產品和服務,擴大業務,吸引潛在客戶,并為客戶提供優質的用戶體驗。在蘭州網站建設中,網站設計、內容管理、用戶體驗和搜索引擎優化是關鍵因素,需要專業的團隊來確保項目的成功。立即開始您的蘭州網站建設計劃,使您的品牌在互聯網上脫穎而出!
View details